\documentclass[t,12pt,aspectratio=169]{beamer} % 16:9 宽屏比例，适合现代投影
\usepackage{ctex} % 中文支持
\usepackage{amsmath, amssymb} % 数学公式与符号
\usepackage{graphicx}
\usepackage{pythonhighlight}
\usepackage{url}
\usepackage{hyperref}
\usepackage{verbatim}

% 主题设置（推荐简洁风格）
\usetheme{Madrid}
\usecolortheme{default} % 可选：seahorse, beaver, dolphin 等

\title{应用回归分析第6章：多重共线性的情形及其处理 }
\author{HXQ ET AL}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{document}

\begin{frame}
  \titlepage
\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{第6章目录 }

\begin{enumerate}

\item[6.1.] 多重共线性产生的背景和原因
\item[6.2.] 多重共线性对回归建模的影响
\item[6.3.] 多重共线性的诊断
\item[6.4.] 消除多重共线性的方法

\end{enumerate}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.1.1 多重共线性的概念(1)} 

\begin{itemize}

\item[1.] 设计矩阵是自变量 $x_1,x_2,\cdots,x_p$ 的观测值组成的矩阵：
\begin{eqnarray*}
X = \begin{bmatrix}
1 & x_{11} & x_{12} & \cdots & x_{1p} \\
1 & x_{21} & x_{22} & \cdots & x_{2p} \\
\cdots & \cdots & \cdots & \cdots & \cdots \\
1 & x_{n1} & x_{n2} & \cdots & x_{np} \\
\end{bmatrix}
=({\bf 1}, {\bf x_1},{\bf x_2}, \cdots, {\bf x_p})
\end{eqnarray*}

\item[2.] 设计矩阵 $X$ 的第 $i$ 行是常数1以及自变量 $x_1,x_2,\cdots,x_p$ 的第 $i$ 组观测。%，如第 $i$ 年的数据。

\item[3.] 设计矩阵按照列向量分块，使用下述记号：
\begin{eqnarray*}
{\bf 0}=\begin{bmatrix} 0 \\ 0 \\ \cdots \\ 0  \end{bmatrix},
{\bf 1}=\begin{bmatrix} 1 \\ 1 \\ \cdots \\ 1  \end{bmatrix},
{\bf x_1}=\begin{bmatrix} x_{11} \\ x_{21} \\ \cdots \\ x_{n1} \end{bmatrix},
\cdots,
{\bf x_p}=\begin{bmatrix} x_{1p} \\ x_{2p} \\ \cdots \\ x_{np} \end{bmatrix},
\end{eqnarray*}

\end{itemize}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.1.2 多重共线性的概念(2)} 

\begin{itemize}

\item[4.] 当设计矩阵 $X=({\bf 1}, {\bf x_1},{\bf x_2}, \cdots, {\bf x_p})$ 的 $p+1$ 个列向量之间线性相关时，称这些自变量之间存在{\color{red}完全的多重共线性}。

\item[5.] 当这些列向量之间接近线性相关时，称这些自变量之间存在{\color{red}多重共线性}，
即存在不全为零的数 $c_0,c_1,\cdots,c_p$ 使得
\[ c_0{\bf 1} + c_1{\bf x_1} + c_2{\bf x_2} + \cdots + c_p{\bf x_p} \approx {\bf 0}\]

\item[6.] {\color{red}多重共线性是指设计矩阵 $X$ 的 $p+1$ 个列向量之间有着近似的线性相关的关系。}也即 $p$ 个自变量的观测数据之间存在内在的线性关系。

\end{itemize}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.1.3 多重共线性的概念(3)} 

\begin{itemize}

\item 线性回归模型的基本假设为：

    \begin{enumerate}
    
    \item {\color{red}自变量 $x_1,x_2,\cdots,x_p$ 是确定的观测值，相互不影响。}
    
    \item 因变量与自变量之间的关系是近似线性的，即 
    
    \vspace{-0.4cm}
    
    \[ y_i = \beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_{p}x_{ip}+\varepsilon_i,\,\,\, i=1,2,\cdots,n\]

    \item 误差项 $\varepsilon_1,\varepsilon_2,\cdots,\varepsilon_n$ 的均值为零、方差相同、且两两不相关，即
        
    \vspace{-0.6cm}
    
    \begin{eqnarray*}
    \left\{\begin{array}{ll}
    \mathbb{E}(\varepsilon_i) = 0,\,\,\, \textrm{var}(\varepsilon_i) = \sigma^2, & i=1,2,\cdots n\\
    \textrm{cov}(\varepsilon_i,\varepsilon_j) = 0, &  i\neq j, \,\, i,j=1,2,\cdots n
    \end{array}\right.
    \end{eqnarray*}
    
    \end{enumerate}

\item {\color{red}如果数据违反上述第1条假设，就会产生多重共线性的现象。}

\end{itemize}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.1.4 多重共线性的一个例子}  

\begin{itemize}

\item 模型目的：研究某地区粮食产量 $y$ 的影响因素，考虑的因素有：
\begin{itemize}
\item 化肥用量 $x_1$
\item 水浇地面积 $x_2$
\item 农业资金投入 $x_3$
\end{itemize}

\item 因素初步分析：资金投入的效应基本上体现在化肥和浇水，所以这三个自变量之间可能存在多重共线性。

\item {\color{red}检验方法：分别计算 $({\bf x_1}, {\bf x_3})$ 和 $({\bf x_2}, {\bf x_3})$ 的相关系数，发现都接近1.}

\item 解决办法：去掉自变量 $x_3$, 考虑 $y$ 对 $x_1,x_2$ 的回归模型。

\end{itemize}

\end{frame}


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.2.1 多重共线性的影响(1-2) } 

%影响之一：估计量的方差会很大，导致参数估计不准。

\begin{enumerate}

\item[1.] 以两个自变量的情况为例，设自变量数据和因变量数据如下：
\begin{eqnarray*}
{\bf x_1}=\begin{bmatrix} x_{11} \\ x_{21} \\ \vdots \\ x_{n1}  \end{bmatrix}, 
{\bf x_2}=\begin{bmatrix} x_{12} \\ x_{22} \\ \vdots \\ x_{n2}  \end{bmatrix}, 
{\bf y}=\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n}  \end{bmatrix}, 
X = \begin{bmatrix}
x_{11} & x_{12} \\
x_{21} & x_{22} \\
\vdots & \vdots \\
x_{n1} & x_{n2} \\
\end{bmatrix}.
\end{eqnarray*}

\item[2.] {\color{red}设自变量和因变量的数据都已经中心化}，即
\begin{eqnarray*}
{\bf 1}^T{\bf x_1} &=& \sum{}_{i=1}^{n} x_{i1}=0, \\
{\bf 1}^T{\bf x_2} &=& \sum{}_{i=1}^{n} x_{i2}=0, \\
{\bf 1}^T{\bf y} &=& \sum{}_{i=1}^{n} y_{i}=0.
\end{eqnarray*}

\end{enumerate}

\end{frame}


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.2.2 多重共线性的影响(3-4)}  

%影响之一：估计量的方差会很大，导致参数估计不准。

\begin{enumerate}

\item[3.] {\color{red}再设自变量和因变量的数据都已经标准化}，即
\begin{eqnarray*}
\hat{\sigma}^2_{x_1} =& \frac{1}{n-1}{\bf x_1}^T{\bf x_1} &=  \frac{1}{n-1}\sum{}_{i=1}^n x_{i1}^2 =1 \\
\hat{\sigma}^2_{x_2} =& \frac{1}{n-1}{\bf x_2}^T{\bf x_2} &=  \frac{1}{n-1} \sum{}_{i=1}^{n} x_{i2}^2=1 \\
\hat{\sigma}^2_{y} =& \frac{1}{n-1}{\bf y}^T{\bf y} &=  \frac{1}{n-1} \sum{}_{i=1}^{n} y_{i}^2 =1
\end{eqnarray*}

\item[4.] 于是有下述等式：
\begin{eqnarray*}
L_{11} = {\bf x_1}^T{\bf x_1}=n-1, \,\,&&\,\, L_{22} = {\bf x_2}^T{\bf x_2}=n-1, \\
L_{yy} = {\bf y}^T{\bf y}=n-1,\,\,&&\,\, {\color{red} L_{12} = {\bf x_1}^T{\bf x_2}= \textrm{ 这个量决定了共线性的程度}}
\end{eqnarray*}

\end{enumerate}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.2.3 多重共线性的影响(5-6)} 

\begin{enumerate}

\item[5.]  变量 $x_1,x_2,y$ 之间的相关系数为
\begin{eqnarray*}
r_{12} = \frac{L_{12}}{\sqrt{L_{11}L_{22}}}=\frac{L_{12}}{n-1},&&\\
r_{1y} = \frac{L_{1y}}{\sqrt{L_{11}L_{yy}}}=\frac{L_{1y}}{n-1},&& \,\,
r_{2y} = \frac{L_{2y}}{\sqrt{L_{22}L_{yy}}}=\frac{L_{2y}}{n-1}
\end{eqnarray*}

\item[6.] 当列向量组 $\{{\bf x_1}, {\bf x_2}\}$ 接近线性相关时，$r_{12}$ 会接近 $\pm 1$. 例如：

\item[*] {\color{red} 当 ${\bf x_1}={\bf x_2}$, 则 $L_{11}=L_{22}=L_{12}$, 这时 $r_{12}=1$. }

\item[*] {\color{red} 当 ${\bf x_1}=-{\bf x_2}$, 则 $L_{11}=L_{22}=-L_{12}$, 这时 $r_{12}=-1$.}

\end{enumerate}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.2.4 多重共线性的影响(7-8)} 

%影响之一：估计量的方差会很大，导致参数估计不准。

\begin{enumerate}

%\item[7.] 考虑线性回归模型 $y=\beta_1x_1+\beta_2x_2+\varepsilon$. 记 $\beta=(\beta_1,\beta_2)^T$, 我们要求出 $\beta$ 的最小二乘估计量 $\hat{\beta}$, 以及 $\hat{\beta}$ 的协方差阵。

\item[7.] 线性回归方程的矩阵形式为 ${\bf y} = X\beta+\varepsilon$, 即
\begin{eqnarray*}
\begin{bmatrix} y_{1} \\ y_{2} \\ \cdots \\ y_{n}  \end{bmatrix}
=\begin{bmatrix}
x_{11} & x_{12} \\
x_{21} & x_{22} \\
\cdots & \cdots \\
x_{n1} & x_{n2} \\
\end{bmatrix}\cdot
\begin{bmatrix} \beta_1 \\ \beta_2 \end{bmatrix}
+
\begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \cdots \\ \varepsilon_{n}  \end{bmatrix}
\end{eqnarray*}


\item[8.] 参数的最小二乘估计是{\color{red}正规方程 $(X^TX)\beta=X^T{\bf y}$} 的解，即下述左边等式。在数据经过中心化和标准化后，约去 $n-1$, 得到右边的等式：
\begin{eqnarray*}
{\color{red} 
\begin{bmatrix} L_{11} & L_{12} \\ L_{21} & L_{22} \end{bmatrix}
\begin{bmatrix} {\beta}_1 \\ {\beta}_2 \end{bmatrix}
= \begin{bmatrix} L_{1y} \\ L_{2y} \end{bmatrix}
}
\longrightarrow 
\begin{bmatrix} 1 & r_{12} \\ r_{12} & 1 \end{bmatrix}
\begin{bmatrix} {\beta}_1 \\ {\beta}_2 \end{bmatrix}
= \begin{bmatrix} r_{1y} \\ r_{2y} \end{bmatrix}
\end{eqnarray*}

\end{enumerate}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.2.5 多重共线性的影响(9-11)}  

\begin{enumerate}

\item[9.] 由此可以求得回归系数为 {\color{red} $\hat{\beta} = ( X^TX)^{-1}X^T{\bf y}$}, 即
\[
\hat{\beta}_1 = \frac{r_{1y}-r_{12}r_{2y}}{1-r_{12}^2}, \hspace{0.5cm}
\hat{\beta}_2 = \frac{r_{2y}-r_{12}r_{1y}}{1-r_{12}^2}.
\]

\item[10.] 因为回归系数的协方差矩阵为 {\color{red} $\mathrm{cov}(\hat\beta)=\sigma^2(X^TX)^{-1}$ }, 所以有
\begin{eqnarray*}
\mathrm{var}(\hat{\beta_1}) = \frac{\sigma^2}{(n-1)(1-r_{12}^2)} ,\hspace{0.5cm}
\mathrm{var}(\hat{\beta_2}) = \frac{\sigma^2}{(n-1)(1-r_{12}^2)}.
%\textrm{cov}(\hat{\beta_1},{\hat\beta_2}) &=& \frac{-r_{12}\sigma^2}{(n-1)(1-r_{12}^2)}.
\end{eqnarray*}

\item[11.] 结论：当自变量 $x_1,x_2$ 之间有线性关系时，$r_{12}^2\approx 1$, \\

\item[*] {\color{red} 这时参数的估计量 $(\hat{\beta}_1,\hat{\beta}_2)$ 的方差会很大，在不同样本得到的参数的估计值会有较大的不同，也即导致参数估计不准。}

\end{enumerate}

\end{frame}


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.3.1 多重共线性的检验与处理的概述}  

\begin{itemize}

\item 检验：
    \begin{itemize}
    \item 计算方差扩大因子
    \item 计算矩阵 $X^TX$ 的特征值和条件数
    \end{itemize}
\item 处理：
    \begin{itemize}
    \item 剔除不重要的解释变量
    \item 增大样本量
    \item 岭回归、主成分回归、偏最小二乘法
    \end{itemize}
    
\end{itemize}


\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.3.2 方差扩大因子的概念} 

\begin{enumerate}
\item[1.] 记设计矩阵为
%\begin{eqnarray*}
\(
X = [{\bf x_1},\cdots,{\bf x_p}] =
\begin{bmatrix}
x_{11} & x_{12} & \cdots & x_{1p} \\
x_{21} & x_{22} & \cdots & x_{2p} \\
\cdots & \cdots & \cdots & \cdots \\
x_{n1} & x_{n2} & \cdots & x_{np} \\
\end{bmatrix}.
\)
%\end{eqnarray*}

\item[2.] 自变量的{\color{red}相关系数矩阵 $r$} 是设计矩阵 $X$ 的 $p$ 个列向量之间的 Pearson 相关系数组成的 $p\times p$ 阶的矩阵。

\item[3.] {\color{red}方差扩大因子定义为矩阵 $r$ 的逆阵的 $p$ 个对角线元素。}

\item[4.] 若数据已经中心标准化，则相关系数矩阵 $r=\frac{1}{n-1}X^TX$.

%\item[5.] {\color{red}检验方法}：如果变量 $x_j$ 的方差扩大因子大于10, 则认为该变量与其余变量有严重的多重共线性。

\end{enumerate}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.3.3 检验方法1：方差扩大因子法}  

\begin{enumerate}

%\item 定义方差扩大因子为自变量的相关系数矩阵 $r$ 的逆阵 $C$ 的对角线的元素，分别记为 $c_{11},c_{22}, \cdots, c_{pp}$.

\item 将数据中心标准化，组成设计矩阵 $X$, 计算{\color{red}相关系数矩阵的逆阵}：
\[ r^{-1}=(n-1)(X^TX)^{-1} = C  \]

\item {\color{red}名词解释}：由参数的最小二乘估计 $\hat{\beta}$ 的方差的计算公式而来：
\begin{eqnarray*}
\textrm{cov}(\hat\beta) &=& \sigma^2(X^TX)^{-1}=\sigma^2 {\color{red} C} /(n-1) \\
\textrm{var}(\hat\beta_j) &=& \sigma^2 {\color{red} c_{jj}} /(n-1)
\end{eqnarray*}

\item {\color{red}检验原理}：
%当 $c_{jj}$ 较大时，参数 $\hat\beta_j$ 的方差较大。
记 $R_j^2$ 是以 $x_j$ 为因变量对其余 $p-1$ 个自变量作回归得到的复决定系数，则有 $c_{jj}=\frac{1}{1-R_j^2}$.
于是 $c_{jj}>>0$ 当且仅当 $R_j^2\approx 1$, 这时说明因素 $x_j$ 可由其余因素解释。

\item {\color{red}检验准则}：当 $c_{jj}>10$ 时，认为自变量 $x_j$ 与其余自变量存在严重的多重共线性。

\end{enumerate}


\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.3.4 检验方法2：考察矩阵 $X^TX$ 的特征值和条件数}  

\begin{enumerate}
\item 因为矩阵 $X^TX$ 是 $p$ 阶的实对称阵，所以有 $p$ 个实特征值。
\item 若 $X$ 的 $p$ 个列向量线性相关，则 $X^TX$ 是奇异的，有零特征值。
\item 若 $X$ 的 $p$ 个列向量线性无关，则 $X^TX$ 有 $p$ 个正的实特征值：
\[ \lambda_1\ge \lambda_2 \ge\cdots \ge \lambda _p>0 \]

\item {\color{red}定义矩阵 $X^TX$ 的条件数为其最大特征值与最小特征值的商：}
$$k={\lambda_1}/{\lambda_p}$$

\item {\color{red}检验准则}：
    \begin{itemize}
    \item 若 $100\le k\le 1000$, 则认为存在较强的多重共线性；
    \item 若 $k>1000$, 则认为存在严重的多重共线性。
    \end{itemize}
\end{enumerate}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.3.5 例子6-3：Webster-Gunst-Mason (1974) 的数据}  

{\scriptsize 
\begin{center}
\begin{tabular}{|c|c|c|c|c|c|c|c|}\hline
$i$ & $y_i$ & $x_{i1}$  & $x_{i2}$  & $x_{i3}$  & $x_{i4}$  & $x_{i5}$  & $x_{i6}$   \\ \hline
$1$ & $10.006$ & $8.000$ & $1.000$ & $1.000$ & $1.000$ & $0.541$ & $-0.099$    \\ \hline
$2$ & $9.737$ & $ 8.000$ & $ 1.000$ & $ 1.000$ & $ 0.000$ & $ 0.130$ & $ 0.070$   \\ \hline
$3$ & $15.087$ & $ 8.000$ & $ 1.000$ & $ 1.000$ & $ 0.000$ & $ 2.116$ & $ 0.115$   \\ \hline
$4$ &   $8.422$ & $ 0.000$ & $ 0.000$ & $ 9.000$ & $ 1.000$ & $ -2.397$ & $ 0.252$   \\ \hline
$5$ &   $8.625$ & $ 0.000$ & $ 0.000$ & $ 9.000$ & $ 1.000$ & $ -0.046$ & $ 0.017$   \\ \hline
$6$ & $16.289$ & $ 0.000$ & $ 0.000$ & $ 9.000$ & $ 1.000$ & $ 0.365$ & $ 1.504$   \\ \hline
$7$ &   $5.958$ & $ 2.000$ & $ 7.000$ & $ 0.000$ & $ 1.000$ & $ 1.996$ & $ -0.865$   \\ \hline
$8$ &   $9.313$ & $ 2.000$ & $ 7.000$ & $ 0.000$ & $ 1.000$ & $ 0.228$ & $ -0.055$   \\ \hline
$9$ & $12.960$ & $ 2.000$ & $ 7.000$ & $ 0.000$ & $ 1.000$ & $ 1.380$ & $ 0.502$   \\ \hline
$10$ &  $5.541$ & $ 0.000$ & $ 0.000$ & $ 0.000$ & $ 10.00$ & $ -0.798$ & $ -0.399$   \\ \hline
$11$ &   $8.756$ & $ 0.000$ & $ 0.000$ & $ 0.000$ & $ 10.00$ & $ 0.257$ & $ 0.101$   \\ \hline
$12$ & $10.937$ & $ 0.000$ & $ 0.000$ & $ 0.000$ & $ 10.00$ & $ 0.440$ & $ 0.432$   \\ \hline
\end{tabular}
\end{center}
}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}{6.3.6 例子6-3：WGM数据的说明和研究目标}  

\begin{itemize}

\item 线性回归模型：
\begin{eqnarray*}
y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3 + \beta_4x_4 + \beta_5x_5 + \beta_6x_6+ \varepsilon
\end{eqnarray*}

\item 数据说明：
    \begin{itemize}
    \item $x_5$ 和 $x_6$ 是正态分布的随机数。 
    \item {\color{red}除第1组数据以外，其余11组数据均有 $x_1+x_2+x_3+x_4=10$. }
    \end{itemize}
\item {\color{red}目标：把这个多重共线性找出来。}
\item 方法：
    \begin{itemize}
    \item 方差扩大因子
    \item 特征值的条件数方法
    \end{itemize}
\end{itemize}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}[fragile=singleslide]{6.3.7 例子6-3：WGM数据的简单相关系数矩阵} 

{\scriptsize
\begin{center}
\begin{tabular}{|c|c|c|c|c|c|c|c|}\hline
$r$      & $y$       & $  x_1$ & $x_2$    & $x_3$    & $x_4$     & $x_5$ & $x_6$ \\ \hline 
$y$     & $1.00$  & $0.25$  & $ -0.10$ & $  0.22$ & $ -0.34$ & $  0.36$ & $  0.81$ \\ \hline 
$x_1$ & $0.25$  & $1.00$  & $  0.05$ & $ -0.34$ & $ -0.50$ & $  0.42$ & $ -0.19$ \\ \hline 
$x_2$ & $-0.10$ & $0.05$  & $  1.00$ & $ -0.43$ & $ -0.37$ & $  0.48$ & $ -0.32$ \\ \hline 
$x_3$ & $0.22$  & $-0.34$ & $ -0.43$ & $  1.00$ & $ -0.36$ & $ -0.51$ & $  0.49$ \\ \hline 
$x_4$ & $-0.34$ & $-0.50$ & $ -0.37$ & $ -0.36$ & $  1.00$ & $ -0.21$ & $ -0.09$ \\ \hline 
$x_5$ & $0.36$  & $0.42$  & $  0.48$ & $ -0.51$ & $ -0.21$ & $  1.00$ & $ -0.12$ \\ \hline 
$x_6$ & $0.81$  & $-0.19$ & $ -0.32$ & $  0.49$ & $ -0.09$ & $ -0.12$ & $  1.00$ \\ \hline 
\end{tabular}
\end{center}
}

\vspace{-0.3cm}

\begin{itemize}
\item 计算相关系数矩阵的程序：

{\color{blue}\verb+import numpy as np; import pandas as pd+} \\ %\dotfill      \\
{\color{blue}\verb+mydata = pd.read_csv('webster1974.csv')+} \dotfill  载入数据\\
{\color{red}\verb+rxy = mydata.corr(method='pearson')+} \dotfill  计算相关系数矩阵

\end{itemize}


\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}[fragile=singleslide]{6.3.8 例子6-3：WGM数据的方差扩大因子}

\begin{itemize}\setlength{\itemsep}{0.15cm}
\item 方差扩大因子 VIF 如下，{\color{red}看到前四个变量的 VIF 较大}。
\begin{center}
\begin{tabular}{|c|c|c|c|c|c|c|}\hline
变量 & $x_1$ & $x_2$    & $x_3$    & $x_4$     & $x_5$ & $x_6$ \\ \hline 
VIF & $182.05$ & $161.36$ & $266.26$ & $297.71$ & $1.92$ & $1.46$  \\ \hline 
\end{tabular}
\end{center}

\item 计算方差扩大因子的程序：

{\color{blue}\verb+mydatax=mydata[['x1','x2','x3','x4','x5','x6']]+} \\ 
{\color{blue}\hspace{4cm}} \dotfill  选取六个自变量的数据     \\
{\color{red}\verb+rxx=mydatax.corr(method='pearson')+ \dotfill  计算相关系数矩阵}     \\
{\color{red}\verb+C=np.linalg.inv(rxx)+ \dotfill  计算相关系数矩阵的逆阵}     \\
{\color{blue}\verb+VIF=np.diag(C)+} \dotfill  找出矩阵的对角线元素  \\
{\color{blue}\verb+VIF.round(2)+} \dotfill  保留两位小数

\end{itemize}

\end{frame}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{frame}[fragile=singleslide]{6.3.9 例子6-3：WGM数据的特征值和条件数}  

\begin{itemize}
\item 经过中心化和标准化之后，矩阵 $X^TX$ 的特征值为 
\begin{center}
\begin{tabular}{|c|c|c|c|c|c|c|}\hline
变量 & $x_1$ & $x_2$    & $x_3$    & $x_4$     & $x_5$ & $x_6$ \\ \hline 
特征值 & $26.72$ & $17.01$ & $0.01$ & $3.39$ & $10.14$ & $8.73$ \\ \hline 
\end{tabular}
\end{center}

\item {\color{red}矩阵 $X^TX$ 的条件数为 $2195.91$.} 考察最小特征值的特征向量。
\item %计算特征值与条件数的程序：
{\color{blue}\verb+mydata_scaled = (mydata-mydata.mean())/mydata.std()+}  \\ 
{\color{blue}\hspace{4cm}} \dotfill  将每列数据进行中心化和标准化  \\
{\color{blue}\verb+A=np.array(mydata_scaled)+}  \dotfill  将数据框转换成二维数组  \\ 
{\color{blue}\verb+X=A[:,range(1,7)]+}  \dotfill  选取自变量数据  \\
{\color{blue}\verb+B=np.dot(X.T,X)+}  \dotfill  计算 $X^TX$ \\
{\color{red}\verb+ev,evct=np.linalg.eig(B)+  \dotfill  计算 $X^TX$ 的特征值和特征向量} \\
{\color{red}\verb+kk=ev.max()/ev.min()+  \dotfill  计算 $X^TX$ 的条件数}

\end{itemize}

\end{frame}


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\end{document}

